블로그
카테고리 이동
공모전을 위한 아이디어가 구체화되었다면 그에 맞는 데이터 를 찾아야 한다.
그런데 생각보다 데이터 찾기 가 쉽지가 않다. 그리고 찾더라도 유료 데이터 인 경우가 많다.
그렇다. 빅데이터 분석, 머신러닝, 딥러닝이 이제 하나의 산업이 된 상황에서
사실 모델만 좋다고 한들 데이터가 없다면 결과물을 만들어낼 수 없다.
그리고 최근 개인정보 보호법 등 데이터의 취득과 관련하여 많은 규제가 있는 현재의 상황에서
데이터 를 가진 자만이 '빅데이터 분석' 을 할 수가 있게 되었다.
그래서 토익 점수를 예측한다는 산타토익이나, 사용자의 사용환경 데이터를 분석해서 맞춤 광고를 제공하는 구글 같이
데이터를 기존에 가지고 있던 회사들이 그 데이터를 바탕으로 사업을 하는 것이다.
만약 데이터가 없다면 그것을 돈을 주고 사오거나, 따로 사람을 고용하여 데이터를 만들어낼 수 밖에 없는데
공모전을 위해서, 그것도 모델이 아닌 데이터를 위해서 돈을 쓴다는 것이... 영 마뜩찮다.
그래서 대부분의 공모전에서는 따로 데이터 를 주기도 하고, 공공 데이터 를 활용하라는 안내를 주기도 한다.
우리가 공모전을 위한 데이터 를 찾고자 들렸던 공공 데이터 사이트 는 아래와 같다.
ETRI AI 나눔 (AI-SPARK대회 제공)
ETRI AI 나눔 에서는 세부적인 분야에 대해 생각보다 쓸만한 데이터를 제공 하고 있다.
챗봇(Chatbot), 자연어 처리(NLP) 특히 감정 분석(Emotion Recognition), 컴퓨터 비전 (Computer Vision), 딥러닝 그래프 분석(GNN)과 관련된 데이터가 제공되고 있다. 특히 한국어 데이터 가 대부분이라, 평소 구하기 어려운 한국어 데이터를 쉽게 구할 수 있다는 장점 이 있다.
그리고 간혹 베이스모델 을 제공하는 글도 있어서, 프로젝트에 많은 도움이 될 것이다.[ETRI AI 나눔
AI 인공지능 응용서비스에 활용 가능한 데이터 자원과 학습데이터 구축에 필요한 툴을 사용자들에게 제공하고, ETRI의 인공지능 기술을 소개하는 기능 등이 포함된 AI 공유 플랫폼 입니다. 서비스 소개 데이터공유 다운로드 랭킹 1 로봇환경에서 고령자의 일상행동 인식을 위한 3D 영상 데이터셋 - Depth map 등록자 김도형 다운로드 수 2387 2 ETRI 라이프로그 데이터셋 (2020-2018) 등록자 정승은 다운로드 수 789 3 로봇환경에서 고령자의 일상행동 인식을 위한 3D 영상 데이터셋 - RGB비디오 등록자 김도형 다운...
nanum.etri.re.kr
](https://nanum.etri.re.kr/?lang=ko_KR)
지오빅데이터 플랫폼 (AI-SPARK 대회 제공)
사실 능력이 된다면 이 데이터도 써보고 싶은 데이터 중 하나이다.
하지만 생각보다 토지, 환경쪽으로 굉장히 특화되어 있어서, GIS를 따로 공부해야만 활용할 수 있는 데이터가 되겠다.
그래서 AI-SPARK 대회에서도 수상자 중에서 이 데이터를 활용한 분은 없었다.[지오빅데이터 오픈플랫폼
GEO BigData OpenPlatform GEO BigData OpenPlatform 검색 상세검색 주제별 국토지질 1,759 광물자원 987 지질환경 18 석유해저 30 유형별 조사·탐사 71 시료·분석 2,328 지도(주제도) 395 보고서, 논문, 논문데이터 132,046 데이터셋 2,794 지질자원주제도 118 지질자원주제도 2D/3D 가시화 서비스 검색하기
data.kigam.re.kr
](https://data.kigam.re.kr/)
AI-HUB (한국지능정보사회진흥원 제공)
AI-HUB 는 머신러닝, 딥러닝 프로젝트를 하는 사람들에게 단비와 같은 웹사이트가 되겠다.
다양한 종류의 데이터에 대해 정말 많은 양의 데이터가 있다.
우리는 여기서 한국어 음성과 감정 데이터를 매칭가능한 '감성 대화 말뭉치' 데이터 를 활용하였는데, 용량이 '3.7GB'다.
그 정도로 데이터가 많다는 얘기다.
데이터 확인 결과, 실제로 국가 인턴과 국가 사업을 통해서 만든 데이터라 그런지 결측치나 오류값은 없는 편이다.
공모전에 참여한다면 가장 먼저 이 사이트를 참조하여 데이터 를 찾아야 되지 않을까 라는 생각이 들 정도로 괜찮았다.
아! 가끔 데이터 마다 협약을 체결하고 승인을 받아야 데이터 다운로드가 되는 경우가 있다.
데이터 다운로드까지 며칠이 걸릴 수 있으니 미리미리 찾고, 협약 체결까지 할 필요가 있다.[AI-Hub
한국어 데이터 93종 이미지 7종 비디오 4종 텍스트 75종 오디오 41종 영상이미지 데이터 78종 이미지 58종 비디오 20종 텍스트 6종 오디오 2종 3D 6종 센서 1종 헬스케어 데이터 67종 이미지 55종 비디오 14종 텍스트 6종 오디오 6종 3D 4종 센서 3종 재난안전환경 데이터 59종 이미지 49종 비디오 8종 텍스트 4종 오디오 3종 센서 3종 농축수산 데이터 41종 이미지 41종 텍스트 6종 오디오 4종 교통물류 데이터 46종 이미지 44종 비디오 7종 텍스트 4종 오디오 2종 3D 6종 센서 1종
aihub.or.kr
](https://aihub.or.kr/)
공공데이터포털 (행정안전부 제공)
공공데이터포털 은 왠만한 정부기관과 공공기관 그리고 지자체의 데이터 가 모두 업로드 되어있는 공공 데이터 의 '바다'와 같은 사이트다.
하지만 바다에서 귀중한 보석을 찾기는 쉽지 않듯
이 공공데이터포털 역시 사용할 사람을 고려해서 데이터를 올렸다라기보다는 올리는 자의 편의에 맞게 데이터를 올린 경우가 많아
많은 데이터에 비해 머신러닝과 딥러닝에 쓸만한 데이터는 그리 많지 않다. 우리도 그래서 간단하게 알아보고 패스했던 사이트다.
아 물론 빅데이터 분석 이 아닌 일반적인 데이터 분석 혹은 데이터 확인을 위한 용도라면 매우 유용할 수 있겠다.[공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다.
www.data.go.kr
](https://www.data.go.kr/)
서울열린데이터광장 (서울특별시 제공)
특별하게 코멘트할 사항은 없다. 공공데이터포털의 서울특별시 버전이라고 볼 수 있다. (그래서 우리는 바로 패스~)
서울특별시라는 범위 내에서 공무원 혹은 국가 인턴들이 직접 가공해서 올린 데이터라고 볼 수 있겠다.
이 역시 빅데이터 분석용이라기보다는 데이터 분석 혹은 확인용이라고 볼 수 있겠다.[열린데이터광장 메인
데이터분류,데이터검색,데이터활용
data.seoul.go.kr
](https://data.seoul.go.kr/)
금융데이터거래소 (금융보안원 제공)
금융 데이터 는 정말 얻기 쉽지 않은 데이터 중 하나다.
개인이 본인 데이터조차도 추출하기 쉽지 않은데, 임의의 다수 데이터를 어떻게 구한단 말인가
그런 의미에서 비금융권 회사 혹은 개인에게 금융 데이터에 대한 접근을 열어준 소중한 사이트다.
금융데이터거래소 에서는 무료 데이터도 있고, 유료 데이터도 있는데
무료 데이 터도 몇백개 이상 되는 편이라 금융 관련 공모전을 나가는 분들에게는 부담을 다소 덜어줄 수 있는 사이트 가 되겠다.[금융데이터거래소 > 데이터상품 > 일반 데이터
무료 다운로드 결합협의 시군구별 업종별 가맹점 데이터(2020년 4월, 인천 동구) 시군구별 업종별 가맹점 데이터(2020년 4월, 인천 동구) 2022-09-07 신한카드 금융보안원 사원사 관심상품 수 0 평균별점 0.0 누적거래량 1 누적조회 수 288 관심상품 무료 다운로드 결합협의 시군구별 업종별 가맹점 데이터(2020년 4월, 대전 대덕구) 시군구별 업종별 가맹점 데이터(2020년 4월, 대전 대덕구) 2022-09-07 신한카드 금융보안원 사원사 관심상품 수 0 평균별점 0.0 누적거래량 0 누적조회 수 283 관심상품...
www.findatamall.or.kr
](https://www.findatamall.or.kr/fsec/dataProd/generalDataProd.do?cmnx=44&sFree=free&searchType=00&sKeyword=&sTaxonomy=200&sOrderByType=orderByDate)
빅데이터 분석 공모전에 출전하기 위해서는 분석하기 위한 빅데이터가 필요하고
데이터를 찾기 위한 노력은 매번 반복될 것 같다.
앞으로 새로운 곳을 찾는대로 또 올릴 계획이다.
이 블로그 글을 쓴 사람의 다른 글이 궁금하다면?